#aprendizaje por refuerzo

Chunking the Critic: SAC con Transformer y retornos N-paso

Descubre cómo un crítico con Transformer y retornos N-paso mejora el SAC en tareas de horizonte largo y recompensas dispersas, superando métodos estándar.

2026-06-08 · 2 min

Doppler: Aprendizaje de Política Dual para Asignación de Dispositivos

Doppler usa dos políticas (SEL y PLC) para asignar tareas y minimizar tiempos en grafos asíncronos.

2026-06-08 · 2 min

Algoritmo de evolución dirigida impulsa predicción neuronal

Mejora la predicción neuronal con el algoritmo de evolución dirigida para niños con implantes cocleares, superando escasez de etiquetas y cambio de dominio.

2026-06-08 · 2 min

Actor-Critic con Kernel Guiado por SHAP para Aprendizaje por Refuerzo Explicable

Mejora la interpretabilidad del aprendizaje por refuerzo con RSA2C, un algoritmo kernelizado que usa atribuciones SHAP para entrenar actores y críticos con estabilidad y eficiencia.

2026-06-08 · 2 min

SlimSearcher: Agentes Web Eficientes con Puertas de Recompensa Adaptativas

Descubre cómo SlimSearcher optimiza agentes de búsqueda profunda, reduciendo costos computacionales hasta 58% sin sacrificar precisión.

2026-06-08 · 2 min

CHDP: Políticas Cooperativas de Difusión para Espacios de Acción Híbridos

Descubre CHDP, un marco que combina políticas de difusión cooperativas para optimizar acciones híbridas en RL, mejorando el rendimiento hasta un 19.3%.

2026-06-08 · 2 min

Harness-1: Agente de búsqueda 20B con entrenamiento por refuerzo

Descubre Harness-1, un subagente de búsqueda de 20B que separa decisiones semánticas de la contabilidad. Logra un 0.730 de recall, superando a otros modelos abiertos.

2026-06-07 · 3 min

Razonamiento paso a paso estilo optimización en LLMs para espacios de búsqueda

Descubre cómo OPT* entrena LLMs con razonamiento paso a paso en optimización. Usa recompensas verificables y RL para espacios de búsqueda complejos.

2026-06-06 · 3 min

Cuando la IA dice sentir

¿Puede una IA expresar emociones? Un experimento con LLMs logra que digan sentir. Descubre los avances, riesgos y el impacto en la veracidad y ética.

2026-06-06 · 2 min

TAPO: Optimización de Políticas Consciente de Herramientas

¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.

2026-06-06 · 2 min

Edit-R2: Aprendizaje por Refuerzo Contextual para Edición de Imágenes Multiturno

Edit-R2 usa RL contextual para edición de imágenes multiturno. Evita errores acumulados y dilución de contexto. Incluye benchmark MICE-Bench.

2026-06-06 · 3 min

De Hackeos de Recompensa a Estados de Riesgo: Monitoreo Contextual en Agentes

Aprende cómo la calibración por contexto y la entropía mejoran la detección de riesgos en agentes LLM frente a hackeos de recompensa.

2026-06-06 · 2 min

CoT-Space: Un marco teórico para el pensamiento lento interno mediante RL

CoT-Space explica el escalado interno del pensamiento lento en IA. Aprende cómo el aprendizaje por refuerzo optimiza las trayectorias de razonamiento en LLMs.

2026-06-06 · 1 min